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摘要 :，[ 目 的/ 意义] 以 Data Citation Index (DCI) 数据 库 高 能 物理 领域 科学 数据 为 研究 对 象 ， 
探究 高 能 物理 领域 科学 数据 的 复 用 特征 及 影响 因素 ,为 推动 我 国 数据 共享 和 引用 规范 性 、 提 
升 数据 价值 和 影响 力 提 供 参 考 与 借鉴 。[ 方 法 /过 程 ] 利 用 DCI 数据 库 的 数据 基本 信息 和 引用 
信息 ， 采 用 统计 回归 方法 ， 通 过 科学 数据 属性 特征 、 科 学 数据 复 用 特征 、 科 学 数据 属性 特征 
与 复 用 特征 相关 性 3 个 维度 开展 高 能 物理 领域 科学 数据 复 用 特征 及 影响 因素 的 分 析 。[ 结 果 / 
结论 ] 研 究 结果 表明 , 高 能 物理 领域 科学 数据 共享 数量 逐年 递增 , 但 数据 字段 缺失 比例 较 高 ， 
数据 复 用 受 数据 等 级 、 出 版 模式 和 学 科 类 别 的 影响 较 大 ， 导 致 被 引 频 次 分 布 极 不 均匀 ， 高 等 
级 科学 数据 更 易 获 得 高 频 复 用 次 数 ， 科 学 数据 共享 和 引用 规范 有 待 进一步 加 强 。 最后， 本 文 
据 此 提出 高 能 物理 科学 数据 复 用 的 优化 提升 路 径 。 
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Abstract: [Purpose/significance] By utilizing the Data Citation Index (DCI) database, this article 
explores the reuse features and influencing factors of scientific data in the field of high-energy 
physics. These findings serve as a point of reference and support, facilitating the promotion of data 
sharing and citation standardization in China. Moreover, these contribute to the augmentation of 
both value and influence of scientific data.[Method/process] This article adopt statistical regression 
methods to analyze the basic and citation features of the DCI database. For the reuse features and 
influencing factors, the analysis includes three dimensions: scientific data attribute features, reuse 
features, and correlation between attribute and reuse features. [Resultconclusion] The research 
findings reveal that the publication volume of scientific data in the field of high-energy physics is 
exhibiting an increasing trend. However, the proportion of missing data fields is relatively high. The 
reuse of high-energy physics scientific data is significantly influenced by publication modes and 
disciplinary categories. These result in the extremely uneven distribution of citation frequency. 
High-level scientific data are more likely to be reused. Moreover, the standardization of scientific 
data sharing and citation needs further enhancement. Finally, we propose an optimization and 


improvement path for high-energy physics science data reuse based on this findings. 
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在 模型 选取 方面 ， 本 研究 以 复 用 次 数 作为 因 变 量 Y， 因 其 属于 计数 型 数据 即 取 值 为 非 负 
的 整数 数据 , 并且 高 能 物理 科学 数据 复 用 次 数 为 0 的 比例 较 高 ,导致 复 用 次 数 标 准 差 远大 于 
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发 布 时 间 以 及 前 文 所 提 及 的 高 能 物理 科学 数据 等 级 。 
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努 利 分 布 ，Y' 服 从 参数 为 4 的 泊 松 分 布 ， Z 和 Y 这 两 个 分 布 都 会 生成 0 值 。 因 此 ， 因 变量 Y 的 
概率 分 布 表示 为 : 
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其 中 , 参数 r 和 4 写 为 自 变量 X 的 回归 模型 , 即 log(4) = Xp,logit(n) = Xy,X = (Xi1,... Xp)€R? 
表示 Z 个 自 变 量 ，B8 7 e R? 和 ym € 及 表示 对 应 的 回归 系数 ，logit(r) = log(r/(1 一 站 )。 

在 结果 解读 方面 , 各 个 自 变 量 回 归 系数 的 绝对 值 大 小 表示 了 对 于 复 用 次 数 影响 的 相对 重 
要 程度 ,绝对 值 越 大 则 表示 该 特征 的 影响 越 大 。 回 归 系 数 8( 泊 松 部 分 的 回归 系数 ) 、y〔 伯 
努 利 部 分 的 回归 系数 ) 分 别 表示 在 保持 其 他 因素 不 变 的 条 件 下 4 的 对 数 、z 的 对 数 几 率 的 变化 
幅度 ， 再 经 过 共 线 性 检查 和 BIC 变量 选择 ,可 以 得 到 最 终 回 归结 果 。 对 自 变 量 % 可 以 根据 其 
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系数 估计 值 及 显著 性 , 解读 如 下 : 在 保持 其 他 因素 不 变 的 条 件 下 ,(1) 铬 y; < 0 或 5j > 0， 则 
表示 自 变 量 X; 的 增加 或 分 类 变量 取 值 为 蘑 类 别 时 ， 会 使 得 数据 复 用 次 数 提高 ，(2) 若 > 0 
或 B; < 0， 则 表示 自 变量 六 的 增加 会 使 得 数据 复 用 次 数 降低 ; (3) 车 yj 与 Bj 均 显 著 不 为 0, 且 
符号 同 正 或 同 负 ， 则 需 将 系数 估计 值 代 入 Y 的 概率 分 布 判断 自 变量 对 数据 复 用 次 数 的 影响 方 
向 ; (4) 泊 松 部 分 6 系数 表示 对 于 复 用 次 数 大 于 0 的 科学 数据 ( 即 Y; > 0) ， 自 变量 % 的 增加 
对 于 科学 数据 能 够 取得 更 多 复 用 ， 从 而 成 为 高 频 复 用 科学 数据 的 可 能 性 。 


2.3 变量 选取 与 定义 


为 描述 科学 数据 的 基本 属性 特征 并 研究 科学 数据 复 用 特征 及 影响 因素 , 本 文 以 被 引 频次 
( 即 数据 的 复 用 次 数 ) 作为 回归 模型 的 因 变 量 Y, 并 通过 数据 预 处 理 及 观察 测试 ， 得 到 可 能 
对 数据 复 用 次 数 影响 较 大 的 出 版 模式 、 从 属 情况 、 质 量 情况 、 发 布 时 间 及 科学 数据 等 级 作为 
自 变量 X。 本 文选 取 的 变量 及 详细 定义 如 表 2 所 示 。 


i 


表 2 本 文选 取 的 变量 及 说 明 


变量 类 别 变量 名 称 变量 类 型 变量 定义 与 取 值 范围 
被 引 频次 ( 复 用 ，，， ”DCI 数据 库 中 的 “被 引 频 次 合计 ”字段 ， 取 值 范 
习 变 量 次 数 ) 计数 型 变量 。 围 从 0 到 571 


出 版 模式 多 分 类 型 变量 《Data set 等 4 种 出 版 模式 ， 基 准 组 为 Data set 


出 版 模式 若 科 学 数据 的 标题 中 出 现 Table 等 字样 则 记 为 
及 等 级 “表格 型 科学 数据 ”， 若 标 题 中 出 现 Figure 等 字 
数据 等 级 多 分 类 型 变量 《 样 则 记 为 “图 片 型 科学 数据 ”; 若 出 版 模式 为 Data 


set 而 且 非 图 片 、 表 格 型 科学 数据 ， 则 记 为 “简单 
格式 科学 数据 *， 基 准 组 为 “图 片 型 科学 数据 ” 


所 属 机 构 多 分 类 型 变量 ”HEPData 等 24 种 出 版 机 构 ， 基 准 组 为 其 他 
从 属 情况 共有 Physics, Particles & Fields 等 14 个 学 科 ， 
学 科 类 别 多 分 类 型 变量 中 部 分 科学 数据 对 应 多 个 学 和 ,将 出 岗 频 次 小 于 
10 的 学 科 合 并 为 “其 他 ”类 ， 并 作为 基准 组 
要 单位 为 个 ，DCI 数据 库 中 缺失 的 字段 个 数 , 取 值 
质量 情况 缺失 的 字段 数 连续 型 变量 范围 从 2 到 6 
EE 他 发 布 时 间 连续 型 变量 单位 为 年 , 即 该 科学 数据 发 布 年 份 , 取 值 范围 从 


1900 到 2022 


3 研究 结果 分 析 


3.1 高 能 物理 领域 科学 数据 属性 特征 分 析 
3.1.1 数据 总 体 情况 分 析 


首先 对 DCI 数据 库 中 高 能 物理 科学 数据 的 逐年 收录 情况 进行 统计 分 析 , 得 到 1980-2022 
这 40 余年 间 高 能 物理 科学 数据 逐年 收录 数量 ， 数 据 总 体 情况 如 图 2 所 示 。 
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图 2DCI 高 能 物理 科学 数据 逐年 收录 数量 分 布 

总 体 来 看 ，DCI 收录 的 高 能 物理 科学 数据 在 1980 年 只 有 2420 条 ， 而 到 2021 年 已 经 达 
到 25203 条 ， 增 长 了 941.5%， 年 均 增长 22.4%， 增 长 趋势 十 分 明显 。 从 图 2 也 可 以 发 现 ， 
高 能 物理 领域 科学 数据 的 收录 数量 呈现 波动 式 上 升 的 态势 ， 并 在 2006 年 后 开始 急剧 增长 ， 
这 与 科研 范式 的 转变 时 间 基 本 吻合 , 说 明科 学 数据 作为 科研 过 程 中 的 一 项 重要 成 果 产 出 , 其 
共享 和 复 用 正 变 得 日 益 普遍 。 同 时 也 说 明 随 着 高 能 物理 领域 的 快速 发 展 和 资源 的 持续 投入 ， 
其 研究 成 果 的 数量 呈现 持续 上 升 的 趋势 ， 研 究 热点 不 断 涌现 。 


3.1.2 数据 出 版 模式 分 析 


DCI 数据 库 对 数据 进行 了 多 层级 的 信息 标 引 ， 并 通过 出 版 模式 (DT) 字段 标注 了 数据 
所 属 的 层级 和 模式 。 通 过 数据 分 析 发 现 ， 高 能 物理 领域 科学 数据 共 分 为 四 种 出 版 模式 ， 分 别 
为 数据 集 (Data Set) 、 软 件 (Software) 、 数 据 研究 (Data study) 和 数据 仓储 (Repository) 。 
第 一 种 出 版 模式 为 Data Set 的 科学 数据 包括 简单 格式 数据 、 数 据 的 基本 描述 信息 、 处 理 后 得 
到 的 表格 数据 或 图 片 数据 等 ， 其 数量 占 比 最 高 ;第 二 种 出 版 模式 为 Software 的 科学 数据 通 
常 表现 为 软件 程序 包 的 形式 , 同时 还 附带 有 示例 数据 和 使 用 说 明文 档 , 可 以 帮助 研究 者 更 方 
便 地 用 其 分 析 和 处 理 其 他 数据 ; 第 三 种 出 版 模式 为 Data study 的 科学 数据 通常 是 将 数据 集 与 
相关 的 科学 研究 描述 文件 、 过 程 记 录 相 结合 ， 以 便 更 深入 地 了 解数 据 的 背景 、 来 源 和 含义 ， 
强化 了 科学 数据 与 科学 研究 之 间 的 关系 和 关联 性 ; 第 四 种 出 版 模式 为 Repository 的 科学 数据 
指 的 是 用 于 储存 和 管理 数据 集 和 软件 程序 包 的 规范 化 数据 仓储 设施 , 更 关注 于 数据 的 可 靠 查 
找 、 访 问 和 管理 服务 。 四 种 出 版 模式 的 层级 关联 关系 及 数据 数量 如 图 3 所 示 。 


[rm | 数据 研究 (Data study) , 67 
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数据 仓储 
Repository [让 
数据 研究 
| Data study = 数据 集 (Data Set) 
数据 集 = 软件 〈Software) 
Data Set 数据 研究 (Data study) 
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图 3 DCI 高 能 物理 科学 数据 出 版 模式 层级 关系 及 数据 数量 
由 图 3 可 知 ,在 DCI 高 能 物理 科学 数据 中 出 版 模式 标注 为 数据 集 (Data Set) 的 数量 


绝 大 多 数 ， 比 例 高 达 98.3%。 其 次 是 软件 (Software) ， 共 2868 条 数据 ， 占 比 约 为 1.7% 。 这 
是 由 于 数据 集 和 软件 是 高 能 物理 科学 数据 出 版 的 最 终 形 式 ， 其 作为 独立 个 体 发 布 的 数量 较 
多 , 数据 共享 发 布 过 程 也 较为 简单 ,而 收录 了 高 能 物理 研究 过 程 信息 的 数据 研究 (Data study )， 
需要 将 科研 过 程 的 临时 数据 、 描 述 文件 和 日 志 记录 等 信息 进行 整理 、 整 合 和 发 布 ， 共 享 发 布 
流程 较为 复杂 ， 科 研 人 员 更 习惯 将 其 中 数据 进行 独立 发 布 ， 而 非 整合 后 发 布 。 而 数据 仓储 
CRepository) 与 高 能 物理 领域 数据 仓储 的 建设 数量 相关 ， 这 种 出 版 模式 的 数据 量 相 较 于 其 
他 三 种 模式 较 少 。 


3. 1. 3 数据 从 属 情况 分 析 


对 DCI 数据 库 高 能 物理 科学 数据 的 作者 、 团 体 作者 、 所 属 机 构 和 学 科 类 别 进行 分 别 统 
计 分 析 ， 了 解数 据 的 从 属 情况 。 通 过 计算 后 发 现 ， 共 有 超过 200 位 高 能 物理 领域 研究 者 参与 
了 超过 10000 条 科学 数据 的 研究 和 共享 工作 ，DCI 数据 库 中 高 能 物理 科学 数据 中 最 多 作者 
的 数量 达到 2840 人 。 统 计 计算 结果 也 表明 ， 大 部 分 科学 数据 是 由 少 部 分 研究 者 贡献 的 ， 符 
合 普 赖 斯 定律 。 


表 3 DCI 高 能 物理 科学 数据 高 频 团体 作者 、 所 属 机 构 与 学 科 类 别 


团体 作者 数量 所 属 机 构 数量 学 科 类 别 数量 
CMS 17070 ILL 3080 粒子 物理 149834 
ATLAS 16749 JINR 2281 4 天 体 物 23747 
STAR 7712 CERN 1846 科技 其 他 主题 5612 
ALICE 3462 nd 1588 光学 893 
ZEUS 2455 ANL 1280 心理 学 108 


DCI 高 能 物理 科学 数据 高 频 团体 作者 及 所 属 机 构 如 表 3 所 示 。 从 团体 作者 角度 来 看 , 科 
学 数据 的 团体 作者 十 分 署名 很 常见 , 说 明 高 能 物理 领域 的 科学 研究 团队 合作 程度 较 高 。 此 外 ， 


上 


在 团体 作者 署名 中 , 每 个 作者 都 对 研究 结果 负 有 责任 和 义务 , 这 有 助 于 确保 研究 结果 的 可 信 


度 和 可 重复 性 。 发 布 数据 最 多 的 团体 为 Compact Muon Solenoid (CMS ) Collaboration， 该 机 
构 是 全 球 最 大 的 科学 合作 组 织 之 一 ， 汇 集 了 来 自 50 多 个 国家 的 约 240 个 研究 所 和 大 学 的 粒 
子 物 理学 家 、 工程 师 、 计 算 机 科学 家 、 技术 人 员 和 学 生 ,， 有 超过 3000 名 研究 人 员 参 与 其 中 。 


从 所 属 机 构 角 度 来 看 ， 发 表 数 据 最 多 的 机 构 为 劳 尼 -好 


之 万 研究 所 (ILL) ， 该 机 构 位 于 法 国 


格 勒 诺 布尔 ， 由 法 国 、 德 国 和 英国 与 其 他 11 个 欧洲 国家 合作 资助 和 管理 ， 其 他 发 布 数据 较 
多 的 机 构 还 包括 俄罗斯 杜 布 纳 联 合 核 研究 所 JINR)、 欧 洲 核子 研究 组 织 (CERN) 等 。 
DCI 高 能 物理 科学 数据 所 属 学 科 类 别 情况 来 看 , 数据 属于 多 学 科 交 叉 的 情况 并 不 十 分 党 


见 ， 绝 大 多 数 数 据 都 标注 了 明确 的 学 科 类 别 。 其 中 ， 粒 子 物 理 数 据 为 149834 条 ， 占 比 高 达 


86.8%， 排 名 第 一 。 数 量 较 多 的 学 科 还 包括 天 文 与 天 体 物 理学 、 科 技 其 他 主题 及 光学 等 ， 其 


他 还 出 现 了 心理 学 、 生 命 科 学 等 交叉 学 科 。 
.1.4 数据 质量 情况 分 析 
对 DCI 高 能 物理 科学 数据 的 缺失 情况 进行 统计 ， 


CD 


un 


进而 分 析 数 据 的 质量 情况 ， 结 果 如 表 


4 所 示 。 从 中 可 以 发 现 三 个 主要 问题 : 首先 ， 部 分 重要 字段 缺失 比例 较 高 ， 如 关键 词 (DE) 


字段 ， 其 缺失 比例 达 91.4%， 关 键 词 对 于 数据 检索 和 发 现 有 着 极其 重要 的 意义 ， 完 善 的 关键 


词 有 助 于 提高 科学 数据 被 发 现 和 复 用 的 概率 。 其 次 ， 对 于 作者 机 构 、 地 址 等 重要 信息 ， 普 遍 
存在 未 统一 和 消 卜 的 情况 ， 数 据 填写 较为 随意 ， 导 致 统计 分 析 时 产生 较 大 误差 。 最后， 字段 
含义 不 清晰 ， 以 数据 类 型 (DY) 字段 为 例 ， 其 缺失 比例 达 80.0%， 且 含义 不 明确 ， 其 中 既 有 
“Scattering Data” 表 示 数 据 类 型 是 散 点 型 ， 也 有 “Astronomical Data” 表 示 数 据 属于 天 文学 领 


域 , 还 有 “Monte Carlo Simulation” 表示 该 数据 是 蒙特 - 


FE 洛 随机 模拟 数据 。 这 说 明 该 字段 的 定 


义 不 够 清楚 和 明确 ， 导 致 作者 填写 的 信息 类 型 含义 不 一 致 或 漏 填 。 


表 4 DCI 高 能 物理 科学 数据 部 分 字段 含义 及 缺失 比例 


字段 ”含义 缺失 比例 ”| 字段 
UR 该 科学 数据 的 网 站 链接 97.7% PY 
DE 科学 数据 关键 词 91.4% SO 
DY 数据 类 型 80.0% SU 
C1 侍者 机 构 及 地 址 78.2% TI 
CA 局 体 作者 54.9% Ul 
MI 数据 表格 的 标注 标签 36.6% U2 
DI 数字 对 象 标识 符 (DOD 2.3% UT 
DT 出 版 模式 0 WC 
LA 语种 0 Z9 
NR 引用 的 参考 文献 数量 0 PT 


含义 缺失 比例 


出 版 机 构 


使 用 次 数 ( 近 180 天 ) 
使 用 

入 藏 号 
WOS 学 科 类 别 
被 引 频 次 合计 


出 版 物 类 型 


次 数 (2013 年 至 今 ) 


站 


3.2 高 能 物理 领域 科学 数据 复 用 特征 分 析 
3.2. 1 科学 数据 复 用 情况 分 析 


通过 科学 数据 的 被 引 频 次 (2Z9) 字段 对 科学 数据 的 复 用 情况 进行 研究 , 将 被 引 频 次 作为 
科学 数据 复 用 次 数 进行 计算 分 析 。 经 过 研究 发 现 ， 有 86.2% 的 科学 数据 的 复 用 次 数 为 0， 有 
13.7% 的 科学 数据 复 用 次 数 为 1， 而 复 用 次 数 大 于 1 的 科学 数据 仅 占 0.1%，DCI 高 能 物理 科 
学 数据 复 用 次 数 分 布 情况 如 图 4 所 示 。 


y= 5.4186x-°1 
Rz = 0.9235 


Log10 〈 复 用 次 数 +1) 
一 


0 1 2 3 4 5 6 7 8 9 11 12 13 14 18 26 29 30 63 67 75 81 106 572 
复 用 次 数 
0 1 2 3 4 5 6 7 8 9 11 12 13 14 18 26 29 30 63 67 75 81 106 572 
0 
—™ 
六 5 
民 
~ 10 
喇 
糙 15 | % 
聊 守 
大 20 心 


图 4 DCI 高 能 物理 科学 数据 复 用 情况 
由 图 4 可 见 ， 高 能 物理 科学 数据 的 复 用 次 数 分 布 极 不 均匀 ， 绝 大 多 数 的 科学 数据 的 复 


用 次 数 很 低 ， 而 极 少数 科学 数据 的 复 用 次 数 很 高 ,这 与 期 刊 论文 的 被 引 频 次 分 布 规律 是 一 臻 
的 。 如 图 4 也 可 知 ， 经 对 数 处 理 后 的 复 用 次 数 ， 其 震 率 分 布 的 拟 合 优 度 Rz=0.9235， 近 似 服 
从 究 律 分 布 。 从 整体 情况 来 看 ， 高 能 物理 领域 科学 数据 的 整体 复 用 比例 较 低 , 平均 复 用 次 数 
为 0.15 次 ， 这 表明 高 能 物理 领域 科学 数据 的 复 用 仍 有 较 大 的 提升 空间 ， 相 比 于 生物 医学 等 
领域 科学 数据 被 复 用 的 次 数 偏 低 中 1。 


3. 2. 2 高 频 复 用 的 科学 数据 案例 


对 高 能 物理 科学 数据 的 高 频 复 用 情况 进行 分 析 发 现 ， 在 所 收集 的 172684 条 数据 中 ， 仅 
有 10 条 数据 的 复 用 次 数 高 于 20 次 。DCI 高 能 物理 领域 排名 前 5 的 高 频 复 用 科学 数据 的 具 
体 情况 如 表 5 所 示 ， 其 中 “ 复 用 次 数 ” 指 能 够 从 Web of Science 核心 合集 、Arabic Citation 
Index、BIOSIS Citation Index、 中 国 科 学 引文 数据 库 、Data Citation Index、Russian Science 
Citation Index、SciELO Citation Index 这 7 个 数据 库 中 收集 得 到 的 数据 被 引 频次 之 和 ， 除 论 
文 引 用 以 外 ， 还 包括 来 自 专利 、 报 告 、 软 件 等 出 版 物 的 引用 。“ 来 自 论 文 引 用 的 频次 ” 指 来 
自 论 文 而 非 其 他 出 版 物 的 引用 频次 ,排除 了 其 他 渠道 引用 数据 的 影响 。“ 来 自 本 领域 的 引用 
频次 ” 指 来 自 于 高 能 物理 领域 出 版 物 的 引用 次 数 , 既 包括 来 自 高 能 物理 领域 论文 的 引用 次 数 ， 
也 包括 来 自 高 能 物理 领域 的 专利 、 报 告 、 软 件 等 其 他 出 版 物 的 引用 次 数 。 
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Energies 


Sloan Digital Sky 


Survey 


由 表 5 可 见 ，DCI 


表 5 DCI 高 能 物理 高 频 复 用 科学 数据 情况 


来 自 本 领域 
的 引用 频次 


422 


90 


30 


29 


来 自 论文 的 
年 份 ”出 版 模式 学 科 类 别 复 用 次 数 引用 频次 
2003 ”数据 仓储 天 文 与 大 体 物 571 421 
2003 ”数据 研究 rd 106 90 
2013 软件 天 文 与 天 体 物 30 30 
1988 数据 集 粒子 物理 29 29 
2000 ”数据 仓储 天 文 与 天 体 物 26 15 
高 能 物理 科学 数据 复 用 次 数 最 高 的 是 “ATNF Pulsar Database”， 访 


数据 是 出 版 类 型 为 数据 仓储 的 科学 数据 , 该 数据 仓储 收集 了 所 有 已 知 旋 转动 力 脉 冲 星 和 磁 星 


的 基本 参数 ， 


持续 的 维护 更 妆 
“Sloan Digital Sky Survey” 同 样 为 数据 仓储 类 型 


天 项 目 数据 库 ， 数 据 来 自 位 于 美国 新 墨西哥 州 阿 由 
目 也 被 称 为 全 世界 最 成 功 的 巡天 计划 之 一 。 其 他 3 个 数 


件 和 数据 集 的 科学 数据 , 包括 同样 来 
体 物理 模拟 的 分 析 框 架 软 伯 


据 久 


7 
O 


通过 高 频 复 月 


由 澳 大 利 


数据 被 高 复 


科学 数据 的 1.6%， 但 在 高 频 复 月 


引用 次 数 。 


] 的 关键 必要 条 伯 


B 集 分 别 


自 于 斯 隆 数字 巡天 项 
F (pynbody) 以 及 TASSO 合 


日 科学 数据 的 情况 分 析 可 以 看 出 , 持续 性 的 科学 数 所 
F。 此 外 ,天文 与 天 体 物 开 


数据 


学 的 科学 数 所 
确 占 比 和 排名 均 明显 高 于 粒子 物理 


亚 国家 科学 机 构 CSIRO 的 空间 和 天 文学 业务 部 门 运营 和 管理 ， 
和 ， 并 提供 相关 的 代码 工具 供 世界 各 地 机 构 的 研究 人 员 访 问 使 | 
的 科学 数据 ， 该 数据 为 美国 
奇 山 顶 天 文 台 的 2.5 米 口 径 望 远 镜 ， 该 项 
为 出 版 类 型 为 数据 研究 、 软 
目 发 布 的 数据 研究 类 型 的 数据 、 
芷 组 织 对 Bhabha 散射 多 年 的 研究 数 


保持 


]。 排名 第 五 的 


的 斯 隆 数字 巡 


天 


外 运营 管理 和 维 


护 更 新 是 


3.3 科学 数据 属性 特征 与 复 用 特征 相关 性 分 析 
3. 3. 1 数据 属性 特征 对 高 频 复 用 的 影响 分 析 


通过 0 膨胀 并 
关 关系 进行 总 体 情况 分 析 , 据 此 探究 复 


松 


可 归 模 型 ， 本 文 对 


居 数 量 昌 然 只 


了 粒子 物理 
得 到 了 较 多 的 


ER 


高 能 物理 科学 数据 的 属性 特 生 


从 属 情况 、 


量 情况 对 


于 复 


情况 的 影 


的 显 


F 与 复 ) 


j 特 征 之 间 的 相 
著 影 响 因素 , 并 度量 科学 数据 等 级 、 出 版 模式 、 
响 程 度 。 经 过 计算 ， 本文 所 得 到 的 0 膨胀 泊 松 回归 模 


结果 如 表 6 所 示 ， 其 ! 


省 略 了 截 距 项 的 估计 结果 ， 系 数 上 标 “*#*” 表 示 在 0.001 水 平 下 


显著 不 为 0“ 琐 # ?表示 经 BIC 变量 选择 后 该 自 变 量 未 被 纳入 最 终 模 型 , 或 因 在 设 定 的 0.001 
水 平 下 不 显著 而 省 略 。 
表 6 0 膨胀 泊 松 回归 模型 的 系数 估计 结果 
系数 估计 结果 
自 变 量 类 别 自 变 量 名 称 
伯 努 利 部 分 泊 松 部 分 6 
数据 仓储 (Level-3 或 4) 提 # 4.979 
软件 (Level-3 或 4) ## 2.882™™ 
出 版 模式 及 数据 研究 (Level-3 或 4) -6.997 2.5927 
等 级 简单 格式 数据 (Level-2) 拓 ## 提 ## 
图 片 型 数据 (Level-1) 提 # 拓 ## 
表格 型 数据 (Level-1) ## 拓 ## 
从 属 情况 : 天 文 与 天 体 物 理学 ### 4.420™™ 
学 科 类 别 粒子 物理 提 ## 提 # 
Astrophysics Source Code Library 提 ## 5 人 
Centre De Donnees Astronomiques fe 
De Strasbourg Wi 2 
从 属 情况 : CERN Open Data Portal 拓 ## 3.297*™™ 
所 属 机 构 HEPData 拓 ## 3.776™™ 
Institut Laue-Langevin 提 ## 1.216”"™ 
Planetary Data System -10.986”™™ -1.800 
质量 情况 缺失 的 字段 数目 拓 H# 拓 ## 
时 间 效 应 发 布 时 间 9.164 0.314 
对 表 6 中 模型 系数 估计 结果 进行 解读 ， 可 得 到 科学 数据 属性 特征 对 于 复 用 次 数 的 影响 。 
其 中 系数 8 对 应 于 复 用 次 数 大 于 0 时 ， 自 变量 对 于 复 用 次 数 的 影响 。 泊 松 部 分 Bj; 系数 的 含义 
可 解释 为 : 在 保持 其 他 因素 不 变 的 条 件 下 ， 如 果 太 值 越 大 ， 那 么 自 变 量 吕 对 应 的 类 别 ， 就 更 


有 可 
计 结果 ， 可 得 


关 软 件 的 介 


能 使 得 科学 数据 获得 更 多 复 
出 以 下 结论 : 

(1) 对 于 出 版 模式 及 科学 数据 等 级 的 层面 ， 相 比较 于 数 
据 和 表格 型 数据 , 高 等 级 的 科学 数据 
， 从 而 更 


j 次 数 并 成 为 高 频 复 


j 的 科学 数据 。 最 终 ， 


因 其 规范 化 的 仓储 设施 、 


2 


易 获 得 更 多 的 复 用 次 数 。 例 如， 对 于 复 用 次 数 大 于 0 的 科学 数据 


的 数据 背景 信 


据 以 上 系数 估 


图 片 型 数 


县 以 及 相 


人 


右 


出 版 模式 为 数据 仓储 , 则 在 保持 其 他 因素 不 变 的 条 件 下 , 该 科学 数据 的 平均 复 用 次 数 比 图 片 
型 科学 数据 高 4.979 次 。 

(2) 对 于 从 属 情况 中 的 学 科 层 面 ， 学 科 类 别 聚 焦 于 “天 文 与 天 体 物理 学 "的 科学 数据 的 
复 用 可 能 性 比 粒 子 物理 、 多 学 科 类 别 、 或 不 确定 学 科 类 别 归属 的 科学 数据 更 高 。 对 于 从 属 情 
况 中 的 所 属 机 构 层 面 , 所 属 机 构 与 出 版 模式 和 学 科 类 别 自 变 量 之 间 存 在 相关 性 ,不同 机 构 会 
在 出 版 模式 和 学 科 类 别 的 选择 上 有 所 偏好 ， 表 现 出 一 定 规 律 性 。 

(3) 对 于 数据 质量 的 层面 ， 在 保持 其 他 因素 不 变 的 条 件 下 ， 字 段 缺 失 数量 对 于 复 用 的 
影响 并 不 显著 。 字 段 缺 失 数量 与 复 用 次 数 之 间 的 皮尔 逊 相关 系数 <0.1。 根 据 进一步 的 描述 分 
析 发 现 ， 这 是 因为 不 同类 型 、 学 科 的 科学 数据 之 间 存 在 着 字段 缺失 数量 的 差异 ， 而 不 是 字 
缺失 数量 本 身 对 复 用 有 显著 影响 。 

从 科学 数据 管理 层面 考虑 , 科学 数据 中 心 、 出 版 机 构 本 身 对 于 提高 高 能 物理 科学 数据 的 
复 用 比例 及 次 数 均 存 在 着 迫切 需求 。 为 研究 科学 数据 复 用 的 优化 提升 路 径 , 本 文 对 各 自 变 量 
对 于 数据 复 用 次 数 的 平均 正 向 影响 程度 进行 刻画 , 结果 如 图 5 所 示 。 出 版 模式 及 科学 数据 等 
级 这 一 类 自 变 量 对 于 复 用 次 数 的 平均 影响 强度 为 3.48， 在 四 类 自 变 量 中 能 够 占据 30% 的 影 
响 力 。 而 发 表 时 间 、 学 科 类 别 与 所 属 机 构 均 由 科学 数据 作者 自主 选择 ， 相 对 来 说 较为 客观 ， 
非 数 据 管 理 者 的 可 控 因 素 。 因 此 , 提高 科学 数据 等 级 将 会 是 优化 和 提升 科学 数据 复 用 的 有 效 
路 径 。 科学 数据 管理 者 可 主动 利用 计算 资源 通过 构造 数据 论文 关联 关系 等 方式 , 提高 科学 数 
据 等 级 ， 以 增加 其 被 复 用 的 可 能 性 。 


还 


出 版 模式 及 数据 等 级 3.48 


学 科 类 别 4.42 


图 5 不 同 自 变量 对 数据 复 用 次 数 的 平均 正 向 影响 程度 


3. 3.2 数据 出 版 与 等 级 对 复 用 影响 分 析 


通过 0 膨胀 泊 松 回归 模型 , 得 到 了 不 同属 性 特征 对 于 复 用 次 数 影 响 的 总 体 情况 , 探究 了 
能 够 提高 平均 复 用 次 数 的 影响 因素 ,为 进一步 细致 比较 出 版 模式 及 数据 等 级 对 于 数据 复 用 次 
数 的 影响 ， 本 文 首先 对 4 种 出 版 模式 的 科学 数据 复 用 情况 进行 研究 。 由 于 0 取 对 数 无 意义 ， 
故 对 复 用 次 数 +0.01 后 再 取 对 数 ， 得 到 的 复 用 次 数 分 布 如 图 6 (a) 所 示 ， 将 纵 坐 标 向 上 平移 
2 个 单位 使 得 最 小 取 值 为 0。 由 图 中 可 以 看 出 ， 出 版 模式 为 数据 仓储 《〈Repository) 的 科学 数 


据 的 平均 复 用 次 数 最 高 ， 其 次 是 数据 研究 (Datastudy) ， 远 高 于 软件 〈Software) 和 数据 集 
(Data Set) 。 其 中 各 箱 体 的 又 号 代表 平均 复 用 次 数 ， 箱 体内 部 的 黑色 横 线 代表 中 位 数 ， 各 
出 版 模式 的 科学 数据 复 用 次 数 表 现 为 极 不 均匀 的 右 偏 分 布 , 因此 平均 复 用 次 数 大 于 复 用 次 数 
中 位 数 。 另 外 , 由 于 软件 和 数据 集 这 两 种 出 版 模式 的 科学 数据 , 其 复 用 次 数 的 中 位 数 均 为 0， 
所 以 中 位 数 黑色 横 线 与 箱 体 的 下 横 线 重合 。 
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数据 仓储 。 数据 研究 软件 数据 集 数据 仓储 数据 研究 ”软件 ”简单 格式 ”表格 图 片 
出 版 模式 数据 等 级 


图 6 不 同 出 版 模式 和 等 级 的 高 能 物理 科学 数据 复 用 情况 


结合 科学 数据 等 级 、 数 据 格式 和 出 版 模式 , 科学 数据 可 以 被 进一步 细 分 为 6 种 类 型 , 包 
括 Level-1 的 表格 和 图 片 型 数据 集 、Level-2 的 简单 格式 数据 集 、Level-3 或 Level-4 的 数据 研 
究 、 软 件 和 数据 仓储 数据 ， 得 到 结果 如 图 6 (b) 和 表 7 所 示 。 由 图 表 可 以 得 出 两 方面 的 结 
论 : (1) 从 平均 复 用 次 数 的 层面 ， 属 于 Level-1 等 级 的 表格 数据 平均 复 用 次 数 要 高 于 同 为 
Level-1 等 级 的 图 片 型 数据 ， 甚 至 高 于 等 级 更 高 的 简单 格式 数据 和 软件 。 (2) 从 高 频 复 用 的 
层面 ,软件 和 简单 格式 数据 中 高 频 复 用 数据 的 个 数 及 复 用 次 数 均 多 于 表格 和 图 片 数据 , 即 科 
学 数据 的 等 级 越 高 ， 越 容易 出 现 高 频 复 用 数据 。 


表 7 不 同等 级 及 出 版 模式 的 复 用 情况 描述 性 分 析 


科学 数据 等 级 。 出 版 模式 样本 量 均值 。 标准 差 。 “从 位 9% 分 位 
Level-1 数据 集 : 表格 型 数据 95527 0.211 0.408 0 1 
Level-1 数据 集 : 图 片 型 数据 7998 0.002 0.046 0 0 
Level-2 数据 集 : 简单 格式 数据 66215 0.056 0.277 0 1 

Level-3 或 4 ”数据 研究 67 7.540 22.071 1 89.500 

Level-3 或 4 软件 2859 0.135 0.946 0 2.420 
Level-3 或 4 数据 仓储 18 35.100 134.149 0.500 479 
为 了 检验 表 7 中 , 六 种 科学 数据 等 级 及 出 版 模式 的 复 用 次 数 之 间 的 差异 是 否 显 著 , 本 文 


将 其 两 两 为 一 组 进行 被 引 频次 的 独立 样本 均值 检验 。 原 假设 表示 两 种 科学 数据 的 复 用 次 数 无 


显著 差异 。 由 于 复 用 次 数 呈 现 极 不 均匀 的 非 正 态 分 布 ， 因 此 采用 Wilcoxon 秩 和 检验 方法 ， 
假设 检验 的 p 值 结果 见 表 8。 根 据 表 8 的 结果 ， 可 认为 在 0.01 的 水 平 下 (1) 整体 来 看 ， 各 
科学 数据 等 级 之 间 的 复 用 次 数 的 差异 显著 , 结合 统计 回归 的 结果 , 预期 提高 科学 数据 等 级 能 
够 显著 提高 复 用 次 数 ，(2) 对 于 科学 数据 等 级 为 Level-3 或 4 的 数据 研究 和 数据 仓储 ， 这 两 
种 出 版 模式 的 科学 数据 的 复 用 次 数 差异 不 显著 。 


表 8 复 用 次 数 差异 的 显著 性 检验 结果 


出 版 模式 表格 型 数据 ”图 片 型 数据 ”简单 格式 数据 ”软件 ”数据 研究 数据 仓储 


表格 型 数据 -- <0.001 <0.001 <0.001 0.008 <0.001 
图 片 型 数据 -- -- <0.001 <0.001 <0.001 <0.001 
简单 格式 数据 -- — -- 0.002 <0.001 <0.001 
软件 -- -- -- -- <0.001 <0.001 
数据 研究 -- — -- -- -- 0.887 
数据 仓储 


4 讨论 与 建议 
通过 本 文 分 析 结 果 来 看 ， 高 能 物理 领域 科学 数据 具备 多 源 、 异 构 、 复 杂 等 特点 ， 导 致 数 
据 共享 和 复 用 仍然 存在 着 很 大 提升 空间 。 首先 , 高 能 物理 科研 人 员 更 习惯 于 在 领域 数据 仓储 
或 数据 平台 中 共享 和 复 用 数据 ， 如 INSPIER、HEPDATA、Zenodo 等 ， 而 DCI 等 多 学 科 科 
学 数据 共享 和 索引 平台 并 未 得 到 广泛 应 用 , 国内 只 有 清华 大 学 图 书馆 等 少量 机 构 开 通 了 该 数 
据 库 的 访问 权限 , 导致 无 法 建立 起 统一 的 引用 标准 和 规范 ,影响 了 数据 的 传播 和 复 用 。 其 次 ， 
高 能 物理 科学 数据 通常 容量 较 大 ， 如 Level-2 以 上 级 别 的 数据 可 能 达到 PB 级 以 上 ， 这 给 数 
据 的 保存 和 共享 带 来 了 极 大 困难 , 需要 投入 较 多 成 本 用 于 存储 和 网 络 设备 的 建设 。 最 后 ,高 
能 物理 科学 数据 质量 层次 不 齐 ， 部 分 重要 字段 如 作者 、 关 键 词 等 存在 较 多 缺失 ， 这 给 科研 人 
员 造 成 较 大 困扰 ， 或 因 无 法 判断 数据 的 完整 性 导致 数据 被 复 用 的 可 能 性 进一步 减 小 。 
4.1 提升 科学 数据 等 级 ， 实 现 高 能 物理 科学 数据 价值 ， 增 加 可 复 用 性 

高 能 物理 科学 数据 的 分 级 分 类 出 版 模式 给 复 用 数据 带 来 了 较 大 便利 , 科研 人 员 和 数据 仓 
储 可 主动 发 挥 管 理 效能 , 利用 现 有 技术 手段 , 提高 高 能 物理 科学 数据 的 出 版 模式 和 数据 等 级 。 
根据 实证 研究 结果 ， 提 高 科学 数据 能 级 是 能 够 显著 加 速 提高 科学 数据 复 用 次 数 的 可 行 手 段 。 
首先 ， 对 于 Level-1 图 片 或 表格 形式 的 科学 数据 ， 利 用 已 有 技术 可 将 其 与 其 他 密切 相关 的 科 
技 文献 及 数据 进行 关联 ， 将 科学 数据 等 级 从 Level-1 提升 至 接近 Level-2 的 简单 格式 数据 
能 够 为 后 续 研 究 者 提供 更 多 参考 信息 。 其 次 ， 对 于 Level-2 简单 格式 数据 ， 将 科学 数据 与 相 
关 的 软件 、 程 序 包 建立 关联 ， 促 使 科学 数据 等 级 从 Level-2 提升 至 接近 Level3 层次 ， 使 得 其 


ee 


We 


~ 


能 够 更 好 地 支撑 完整 的 科学 分 析 流 程 。 通过 以 上 两 种 提高 科学 数据 等 级 的 可 行 途径 , 能 够 高 
效 地 提高 科学 数据 可 复 用 性 ， 进 一 步 盘活 存量 科学 数据 ， 加 快 科 学 数据 的 共享 与 传播 。 
4.2 完善 科学 数据 规范 制度 ， 保 证 科学 数据 基础 质量 

现 有 的 科学 数据 管理 规范 制度 的 建设 与 应 用 尚 不 完善 ， 需 要 对 科学 数据 的 汇 交 、 保 存 、 
开放 推广 等 方面 进行 引导 与 规范 。 具 体 包括 : 第 一 ， 科 学 数据 管理 方 应 明确 对 于 提交 方 的 要 
求 ， 根 据 《 科 技 计划 形成 的 科学 数据 汇 交 技术 与 管理 规范 》 等 国家 标准 ， 进 一 步 拓展 明确 
建立 与 应 用 高 能 物理 科学 数据 标准 ， 引 导 作 者 和 出 版 机 构 补 充 科 学 数据 的 背景 部 分 的 介绍 。 
针对 部 分 重要 字段 缺失 比例 较 高 的 问题 , 以 及 字段 含义 不 清晰 的 问题 , 明确 有 价值 的 字段 的 
含义 ,以 及 给 出 示范 以 提高 科学 数据 的 对 应 字段 的 准确 性 。 这 样 能 够 使 得 科学 数据 的 提交 方 
能 够 按照 规范 标准 进行 科学 数据 的 采集 生成 加 工整 理 , 保证 所 提交 的 科学 数据 的 真实 性 、 准 
确 性 、 可 用 性 、 完 整 性 、 一 致 性 、 安 全 性 等 。 
第 二 ， 对 于 科学 数据 管理 方 本 身 ， 应 建立 拓展 高 能 物理 科学 数据 质量 审查 制度 ,出 有 具 
查 报 告 ， 保 障 汇 交 数据 质量 。 在 科学 数据 的 复 用 方面 ， 应 充分 理解 数据 仓储 、 数 据 研 究 的 一 
出 版 模式 对 于 科学 数据 复 用 的 促进 作用 , 出 版 模式 为 数据 仓储 和 数据 集 及 其 研究 的 科学 数据 
的 复 用 性 显著 高 于 图 片 型 表格 型 科学 数据 ,可 注重 集约 化 建设 高 质量 的 数据 仓储 设施 。 以 这 
些 建 议 为 试点 ， 有 助 于 明确 科学 数据 复 用 的 规范 和 要 求 ， 提高 科学 数据 的 出 版 质量 和 流通 效 
率 ， 促 进 科学 数据 的 复 用 以 充分 挖掘 科学 数据 的 内 在 价值 。 
4.3 完善 高 能 物理 科学 数据 分 级 分 类 共享 机 制 ， 实 现 高 质量 可 持续 发 展 

科学 数据 的 分 级 分 类 机 制 是 实现 科学 数据 全 生命 周期 安全 管理 的 重要 手段 , 能 够 保证 科 
学 数据 的 机 密 性 安全 要 求 , 以 及 考虑 不 同 子 领域 研究 的 需要 ,和 不 同等 级 的 科学 数据 的 存储 
管理 成 本 。 第 一 ， 对 于 涉及 国家 秘密 的 数据 ， 建 并 数据 保护 指导 性 规范 ， 采 取 禁 止 开放 的 方 
式 。 第 二 ， 对 于 涉及 个 人 隐私 的 科学 数据 ， 可 利用 差分 隐私 等 隐私 保护 算法 进行 加 密 技术 处 
理 。 第 三 ， 对 于 Level-1 等 级 的 科普 类 别 的 科学 数据 ， 这 类 科学 数据 属于 公众 迫切 需要 的 、 
对 国家 产业 发 展 不 形成 竞争 威胁 的 重要 资源 ， 应 采取 无 偿 开 放 的 方式 。 第 四 ， 对 于 前 沿 类 别 
子 领域 的 科学 数据 ,应 优先 完善 提升 相关 服务 ， 保 证 科学 数据 质量 。 对 于 其 密切 相关 的 科技 
文献 、 软 件 、 程 序 包 ， 开 展 个 性 化 推荐 工作 ， 使 得 更 能 够 支撑 完整 的 科学 分 析 。 以 这 些 建 议 
为 试点 ， 有 助 于 保证 科学 数据 的 安全 需求 ， 实 现 高 质量 可 持续 发 展 。 
4.4 完善 交流 合作 机 制 ， 推 广 宣传 高 能 物理 科学 数据 平台 的 使 用 
建议 科学 数据 中 心 与 相关 具有 科技 服务 优势 的 机 构 如 图 书馆 、 情 报 中心 加 强 合作 , 加 大 
推广 平台 的 使 用 。 根 据 本 文 的 研究 结果 ， 高 能 物理 科学 数据 的 整体 复 用 比例 较 低 ， 且 复 用 行 
为 集中 于 数据 仓储 等 完善 的 数据 平台 ， 而 DCI 数据 库 中 存在 着 海量 科学 数据 未 被 访问 和 复 
j。 科 技 服务 机 构 应 协助 科学 数据 中 心 ,在 保证 提升 科学 数据 等 级 ， 以 及 对 汇 交 的 科学 数据 
的 可 访问 性 、 可 互 操 作 性 、 可 复 用 性 等 质量 进行 检查 的 基础 之 上 ， 进 一 步 完 善 科学 数据 的 外 


部 宣传 服务 。 通 过 加 大 推广 科学 数据 平台 ， 可 以 提高 科学 数据 的 可 发 现 性 。 进 一 步 地 ， 服 务 
机 构 能 够 精准 匹配 相关 科学 领域 的 研究 机 构 及 科研 人 员 , 通过 开展 关于 科学 数据 平台 如 DCI 
数据 库 、 国 家 高 能 物理 科学 数据 中 心 的 培训 介绍 ， 从 而 促进 科学 数据 的 开放 共享 与 复 用 。 


5 结语 

本 文 基于 DCI 数据 库 收集 得 到 的 高 能 物理 科学 数据 ， 通 过 统计 回归 模型 及 多 视角 的 描 
述 性 分 析 , 进行 属性 特征 和 复 用 特征 及 其 影响 因素 的 实证 研究 。 本 文 的 研究 提出 了 高 能 物理 
科学 数据 管理 与 复 用 的 优化 提升 路 径 ， 对 于 提高 科学 数据 的 复 用 比例 提供 了 参考 。 

本 研究 的 结论 也 存在 一 些 局 限 性 和 值得 拓展 研究 的 地 方 。 第 一 ， 由 于 高 能 物理 科学 数据 
的 被 引 频次 为 0 的 比例 高 达 86.2%， 且 关键 词 等 字段 缺失 比例 高 ， 这 使 得 对 科学 数据 复 用 
影响 因素 研究 的 结论 尚 不 够 丰富 , 很 多 特征 对 于 被 引 频 次 的 影响 不 显著 。 而 对 于 平均 被 引 频 
次 较 高 的 学 科 领 域 , 如 生物 医学 领域 , 可 以 通过 探究 时 间 段 与 科学 数据 关键 词 的 交叉 项 的 
归 分 析 结果 ， 从 而 探究 不 同时 间 段 内 各 个 主题 对 复 用 的 影响 程度 , 可 以 得 到 更 为 丰富 且 细 粒 
度 的 影响 因素 的 研究 结论 ， 以 及 更 为 细 粒 度 的 针对 性 指导 建议 。 第 二 ， 由 于 不 同学 科 的 科学 
数据 的 特点 往往 各 不 相同 ， 需 要 针对 各 学 科 的 科学 数据 的 特点 进行 特征 提取 , 并 选择 所 适应 
的 统计 回归 模型 ， 探 究 复 用 影响 因素 。 
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